草庐IT

c++ - Qt Release build 给出 MSVC++ Runtime Library Error

全部标签

Python HDFS 给出了不正确的文件大小

我正在尝试使用python3.5和hdfs库从hdfs获取文件的大小。https://pypi.python.org/pypi/hdfs/fromhdfs.clientimportClientif__name__=='__main__':cl=Client("http://hostName:50070")print(cl.content("/path/to/file/fileName.txt",False))我明白了{'spaceQuota':-1,'directoryCount':0,'spaceConsumed':103566,'length':34522,'quota':-1,'

hadoop - Mapreduce WordCount 示例给出错误的输出

我正在尝试学习mapreduce。从WordCount示例开始时,如MapReduceWordCount所示,当我在eclipse中执行代码时,它的输出是正确的字数。I/p文件内容如下:-HelloWorldByeWorld它的输出是Bye1Hello1World2之后,我通过将输入文件中每个单词后的空格替换为逗号来测试代码。现在我已将输入恢复为与以前相同,但现在输出中的WordCount是预期结果的两倍。Bye2Hello2World4我的代码如下:publicstaticclassTokenizerMapperextendsMapper{publicstaticIntWritabl

regex - 使用 REGEXP_EXTRACT 没有给出预期的结果 - Hive

我正在尝试在Hive中使用REGEXP_EXTRACT函数从列中获取所需的字符串。列中数据的形式为:单词\more_words我需要提取\之后的字符串部分。我试着做这样的事情:SELECTREGEXP_EXTRACT('words\more_words','(.*)(\\+)(.*)',3)->不返回任何内容SELECTREGEXP_EXTRACT('words\more_words','.*(\\+)(.*)',2)->不返回任何内容SELECTREGEXP_EXTRACT('words\more_words','\w+(\\+)(\w+)',2)->什么都不返回SELECTREGE

hadoop - Hive 总是给出 "Number of reduce tasks determined at compile time: 1",无论我做什么

createexternaltableifnotexistsmy_table(customer_idSTRING,ip_idSTRING)location'ip_b_class';然后:hive>setmapred.reduce.tasks=50;hive>selectcount(distinctcustomer_id)frommy_table;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1里面有160GB,1个reducer需要很长时间...[ihadanny@lv

hadoop - Hive 外部表 - 在用包含不同记录数的新文件替换基础数据文件后没有给出正确的计数

注意到count(*)没有给出更新的计数,在用一个包含不同记录数的新文件替换已经存在的数据文件之后,在外部的HDFS位置表。有没有办法刷新这个值?或者,它会在可配置的持续时间后自动刷新吗? 最佳答案 Hive维护一些表统计信息的缓存,包括行数。尝试执行ANALYZETABLEtablenameCOMPUTESTATISTICS来更新这些缓存的统计信息并再次运行查询。参见StatisticsinHive了解详情。 关于hadoop-Hive外部表-在用包含不同记录数的新文件替换基础数据文件

java - 为什么 ./sbin/start-master.sh 给出 "Error: Could not find or load main class org.apache.spark.launcher.Main"?

我是新手。我在单个节点上安装spark-1.5.2-bin-without-hadoop.tgz。我已完成配置。当我要使用以下命令启动我的主节点时,它向我显示错误。请帮助我。Command:./sbin/start-master.shstartingorg.apache.spark.deploy.master.Master,loggingto/usr/local/spark/sbin/../logs/spark-jalaj-org.apache.spark.deploy.master.Master-1-CIPL367.outfailedtolaunchorg.apache.spark.

java - Hadoop 给出 AccessControlException

我正在尝试从我的Windows机器向HDFS集群写入文件,但出现以下错误org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):Permissiondenied:user=...,access=WRITE,inode="/user/hadoop/Hadoop_File.txt":hdfs:hdfs:-rw-r--r--在我的hadoop配置中hadoop.security.auth_to_localissettoDEFAULThadoop.security.auth

sql - Hive通过 ‘distinct’子句给出一条记录,但是 ‘count’是0

看看这些。0:jdbc:hive2>selectdistinctA_COLfromA_TABLEwhereA_COL='1999-05-04';+-------------+--+|A_COL|+-------------+--+|1999-05-04|+-------------+--+1rowselected(6.127seconds)0:jdbc:hive2>selectcount(*)fromA_TABLEwhereA_COL='1999-05-04';+------+--+|_c0|+------+--+|0|+------+--+1rowselected(4.206seco

json - 从非嵌套的 json 数据文件创建配置单元表给出的输出为 null

我正在尝试从hdfs中存在的json文件创建一个Hive表(“desiredtable”)。以下是我遵循的步骤:最初我已将hive-serdes-1.0-SNAPSHOT.jar复制到hive/lib文件夹中。1.addjar/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;2.createexternaltablesample_data(reviewerIDstring,reviewTextstring)rowformatserde'com.cloudera.hive.serde.JsonSerDe'location'/dataset'

docker - Hadoop Spark docker swarm 其中 pyspark 给出 BlockMissingException 但文件很好

基于https://github.com/gotthardsen/docker-hadoop-spark-workbench/tree/master/swarm我有一个带有hadoop、spark、hue和jupyternotebook设置的dockerswarm设置。我使用Hue将文件上传到hdfs,从hue或名称节点上的hdfs下载或查看文件没有问题。没有丢失block,文件检查表明一切正常。但是当我尝试在jupyter中使用pyspark访问它时,我得到:org.apache.hadoop.hdfs.BlockMissingException:Couldnotobtainbloc